EvoClass
ИИ012
Глубокое погружение в большие языковые модели
Автономные агенты, RLHF и выравнивание по безопасности
Цели обучения
- Анализировать архитектурные компоненты графических интерфейсов агентов, включая модули планирования, принятия решений и рефлексии в многоагентных системах.
- Объяснить механику обучения с подкреплением (RL) и обучения с подкреплением от человека (RLHF), особенно роль моделей вознаграждения и алгоритма PPO в согласовании поведения агента с человеческими ценностями.
- Оценить риски безопасности и проблемы надежности автономных агентов, включая ошибки вне распределения данных (OOD), атаки типа «сброс» и внешние отвлекающие факторы.